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La presente invention conceme le domaine de la classification d'un signal 
sonore en des classes acoustiques refletant une s6raantique. 

L^objet de Pinvention conceme plus precis6ment le domaine de Textraction 
automatique d'un signal sonore, d'infonnations s6mantiques tels que musique, 
5 parole, bruit, silence, homme, femme, musique rock, jazz, etc. 

Dans Tetat de la technique, la profusion de documents multim^dias requiert 
une indexation necessitant une intervention humaine importante, ce qui constitue une 
operation couteuse et longue k mener k bien. Par consequent, Textraction 
automatique d'informations s6mantiques constitue une aide pr6cievise permettant de 
1 0 facility et d'accel6rer le travail de l'anal3^e et de Pindexation. 

Dans de nombreuses applications^ la segmentation et la classification 
semantique d*une bande sonore constituent frequemment des operations necessaires 
avant d'envisager d'autres analyses et traitements sui le signal sonore. 

Une application connue necessitant la segmentation et la classification 
15 semantique. concQme les systemes de reconnaissance automatique deUa parole 
appel6s aussi systdmes de dict^e vocale adapt6s pour transcrire en texte mip bande de. 
paroles. Une segmentation et une classification de la bande sonore en deS' segments 
musique/parole spnt des etapes indispensables pour un niveau de peisfonnances 
acceptables.- 

20 L'utilisation d'xm systeme de recoimaissance automatique de la paroi|^ pour une 

indexation par le contenu de documents audiovisuels comme par exemple les 
joumaux televises, necessite d'eliminer les segments de non parole pour diminuer le 
taux d'erreur. De plus, si une connaissance a priori du genre du locuteur (homme ou 
femme) est disponible, Tutilisation d'un systeme de reconnaissance automatique de 

25 la parole permet d'aboutir a une amelioration importante des performances. 

Une autre application connue ayant recours k la segmentation et a la 
classification s6mantique d*une bande sonore conceme des systemes de statistiques 
et de surveillance. En effet, pour des questions du respect du droit d'auteur ou du 
respect du quota du temps de parole, des organismes de r6gulation et de contrdle 

30 comme le CSA ou la SACEM en France, doivent s'appuyer sur des comptes rendus 
precis, par exemple sur la duree du temps de parole par homme politique dans les 
chaines de t61evision pour le CSA et le titre et la duree des chansons emises par les 




radios pour la SACEM. La mise en place d'un systenie automatique de statistiques et 
de surveillance s'appuie au prealable sur une segmentation ct une classification d'une 
bande sonore musique/parole. 

Une autre application possible a trait au systeme de resume ou de filtrage 
5 automatique de programmes audio visuels. Pour de nombreuses applications, comme 
par exemple la telephonie mobile ou la vente de programmes audiovisuels par 
correspondance, il apparait necessaire de resumer 6ventuellement selon le centre 
dMnt6r8t d'un utilisateur, un programme audiovisuel de deux heures en une 
compilation de mom^ts forts de quelques minutes. Un tel resume peut §tre realis6 

10 soit off-line, c'est-a-dire qu'il s'agit d'un resum6 pr6alablement calculi qui est 
associe au programme d'origine, soit on-line, c'est-a-dire qu'il s'agit d'un filtrage du 
programme audiovisuel permettant de conserver uniquement les moments forts d'un 
programme en mode de diffusion ou streaming. Les moments forts sont fonction du 
programme audiovisuel et du centre d'interet d'un utilisateur. Par exemple, dans un- 

15 match de football, un moment fort est celui oi il y a une action de but. Pour un film 
d'action, un moment fort correspond k des combats, k des poursuites, etc. Ces 
moments forts se traduisent le plus souvent en des percussions sur la bande sonore. 
Pour les identifier, il est int6ressant de s'appuyer sur une segmentation et une 
classification de la bande sonore en des segments ayant une certaine propriete ou 

20 non. 

En Tetat de la technique, il existe divers syst^mes de classification d'un signal 
sonore. Par exemple, le document WO 98 27 543 d^crit une technique de 
classification d\m signal sonore en musiquc ou parole. Ce document prevoit 
d'etudier les differents parametres mesurables du signal sonore tel que Tenergie de 

25 modulation a 4Hz, le flux spectral, la variation du flux spectral, le taux de passage 
par zero, etc, Ces parameti*es sont extraits pour une fenetre d^une seconde ou une 
autre dviree, pour definir la variation du flux spectral ou une trame comme le taux de 
passage par zero. Ensuite, en utilisant dijfterents classificateurs, comme par exemple 
le classificateur base sur le melange des lois Gaussicnnes ou un classificateur du Plus 

30 Proche Voisin, un taux d'erreur de Tordre de 6 % est obtenu. L'apprentissage des 
classific^nteurs a ete realise sur trente six minutes et le lest sur quatre minutes, Ces 
rcsultats montrent que la technique proposee n^cessitent unc base d'apprentissage 



d'une taille importante pour aboutii- k un taux de reconnaissance de 95 %. Si cela est 
possible avec quarante minutes de documents audiovisuels, cette technique apparait 
difficilement envisageable pour des applications ou les donnees a classifier ont une 
taille importante avec un niveau haut de variabilite resultant des differentes sources 
5 des documents avec des niveaux de bmits et de resolution diff6rents pour chacune de 
ces sources. 

Le brevet US 5 712 953 dterit un syst^me utilisant la variation par rapport au 
temps d\i premier moment du spectre relatif h la frequence pour la detection du signal 
de musique. Ce document suppose que cette variation est tres faible pour la musique 

10 contrairement k d'autres signaxix non musicaux. Malheureusement, les diffiSrents 
types de musique n'ont pas la mSme stracturation de sorte qu*un tel systeme pr^sente 
des performances insuffisantes comme par exemple pour le RAP. 

La demande de brevet europeen 1 1 00 073 propose une classification du signal 
sonore en differentes categories en utilisant dix-huit paramdtres comme par exemple 

15 la moyenne et la variance de la puissance du signal, la puissance des m^^yennes 
fi-^quences, etc. Une quantification vectorielle est realisee et la distajace de 
Mahalanobis est utilisee pour la classification. .11 apparait que I'utilisatiop. de la 
puissance du signal n'est pas stable car les signaux provenant de diff6rentes^,^ources 
sont toujours enregistres ayec differents niveaux de puissance spectrale. Par-^Ueurs, 

20 Tutilisation des paramdtres, comme la puissance de basses frequences ou .hautes 
frequences, pour la discrimination entre la musique et la parole est une limitation 
serieuse compte tenu de T extreme variation, k la fois de la musique et de la parole. 
Enfin, le choix d'une distance appropride pour des vecteurs de dix-huit paramfetres 
non homogenes n'est pas evident car il s'agit d'affecter des poids differents k ces 

25 parametres en fonction de leur importance. 

L'objet de I'invention vise done a remedier aux inconvenients enonces ci- 
dessus en proposant une technique permettant de r6aliser une classification du signal 
sonore en des classes semantiques avec un taux de reconnaissance 61eve tout en 
n6cessitant une duree reduite d'apprentissage. 

30 Pour atteindre un tel objectif, le proc6de selon Tinvention conceme un precede 

pour affecter au moins une classe sonore a un signal sonore, comprenant les etapes 
suivantes : 
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D diviser le signal sonore en des segments temporels presentant une dur^e 
determinee, 

° extraire les param^tres frequentiels du signal sonore dans chacun des 
segments temporels, 

5 ° regrouper les parametres frequentiels dans des fenetres temporelles 

pr6sentant une dur6e d6tennin6e sup6rieure a la duree des segments 
temporels, 

» extraire de chaque fenetre temporelle, des composantes caractdristiques, 
^ et en consid6ration des composantes caracteristiques extraites et a Taide 
10 d'un classificateur, identifier la classe sonore de chaque fenStre temporelle 

du signal sonore. 

Un autre objet de Tinvention est de proposer un appareil pour affecter au 
moins une classe sonore a un signal sonore comprenant : 

a des moyens pour diviser le signal sonore -en -des segments temporels 

1 5 pr6sentant une duree d6tenmn6e, 

"3 des moyens pour extraire les parametres frequentiels du signal sonore 

dans chacun des segments temporels, 
s des moyens pour regrouper les parametres frequentiels dans des fenetres 
temporelles pr&entant une durte d6termin6e sup6rieure a la durte des 
20 segments temporels, 

" des moyens pour extraire de chaque fenStre temporelle, des composantes 
caracteri sti ques, 

"3 et des moyens pour identifier la classe sonore des fenetres temporelles du 
signal sonore en consideration des composantes caracteristiques extraites 
25 et a Taide d'un classificateur. 

Diverses autres caracteristiques ressortent de la description faite ci-dessous en 
reference aux dessins annexes qui montrent, a titre d'exemples non limitatifs, des 
fonnes de realisation de Vobjet de Tinvention. 

La Fig. 1 est un schema synoptique montrant un appareil de mise en oeuvre du 
30 procede de classification d'un signal sonore confonne a Tinvcntion. 

La Fig. 2 est un schema illustrant une etape caracteristique du procede selon 
rinvention, a savoir de transfomiation. 



La Fig. 3 est un schema illustrant une autre 6tape caracteristique de Tinvention. 

La Fig. 4 iUustre me 6tape de classification du signal sonore selon I'invention. 

La Fig. 5 est un schema illustrant un exemple de r6seau de neurones utilise 
dans le cadre de I'invention. 

Tel que cela apparait plus pr6cis^ment k la Fig. 1, I'objet de I'invention 
conceme un appareil 1 permettant de classifier un signal sonore S de tous types en 
des classes sonores. En d'autres tetmes, le signal sonore S est d6coup6 en des 
segments qui sont 6tiquetes en fonction de leur contenu. Les Etiquettes associ6es h 
chaque segment comme par exemple musique, parole, bruit, homme, fenune, etc. 
r^isent une classification du signal sonore en des categories semantiques ou classes 
sonores semantiques. 

Conform6ment k invention, le signal sonore S k classifier est appliqu6 k 
l'entr6e de moyens de segmentation 10 permettant de diviser le signal sonore S en 
des segments temporels T pr6sentant chacun une duree d6terminee. De preference, 
les segments temporels T pr^sentent tous une mgme dur6e comprise de pireference 
catre dix et trente ms. Dans la mesure ou chaque segment temporel T presente une 
duree de quelques miUisecondes, il peut etre consider6 que le signal est statipnnaire, 
de sorte qu'il peut etre applique par la suite, des transformations qui chgngent le 
signal temporel dans le domaine fi-equentiel. Diff6rents types de segments tonporels 
peuvent etre utilises conune par exemple des fengtres rectangulaires simples,. fenStres 
de Harming ou de Hamming. 

L'appareil 1 comporte ainsi des moyens d'extraction 20 permettant d'extraire 
les paramdtres firequentiels du signal sonore dans chacun des segments temporels T. 
L'appareil 1 comporte egalement des moyens 30 pour regrouper ces paramdtres 
fi^uentiels dans des fenStres temporelles F pr^sentant une dur^e detennin6e 
superieure k la duree des segments temporels T. 

Selon une caract6ristique pr6feree de realisation, les paramfeties fi-equentiels 
sont regroupes dans des fendtres temporelles F de duree superieure a 0,3 seconde et 
de preference comprise entie 0, 5 et 2 secondes. Le choix de la taille de la fenetre 
temporelle F est determine pour pouvoir discriminer deux fenetres differentes 
acoustiquement comme par exemple parole, musique, homme, femme, silence, etc. 
Si la fenetre temporelle F est courte de quelques dizaines de mUlisecondes par 
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exemple, des changements acoustiques locaux de type changement de volume, 
changement d'instrument de musique, d^but ou fin d'un mot peuvent 6tre d6tect6s. Si 
la fenetre est large, par exemple de quelques centiemes de millisecondes par 
exemple, les changements detectables seront des changements plus generaux du type 
5 changement de rythrae de musique ou rythme de parole par exemple. 

L'appareil 1 comporte egalement des moyens d'extraction 40 permettant 
d'extraire de chaque fendtre temporelle ¥ des composantes caracieristiques. Eu 
consideration de ces composantes caract&istiques extraites et a I'aide d»un 
classifioateur 50, des moyens d' identification 60 pennettent d'identifier la classe 
1 0 sonore de chaque fendtre teiiq)orelle F du signal sonore S. 

La desaription qui suit d6cait une variante pr6f6ree de realisation d'une 
methode de classification d'un signal sonore. 

Selon une caracteristique preferee de realisation, pour passer du domaine 
temporal au domaine firequentiel, les moyens d'extraction.2.0 utilisent la Transform6e 
15 de Fourier Discrete dans le cas d'un signal sonore echantillonne, notee par la suite 
TFD. La Transformee de Fourier Discrete donne pour une serie temporelle de valeurs 
d'amplitude du signal, une serie de valeurs de spectres de frequence. L'equation de la 
Transformee de Fourier Discrete est la suivante : 



ou x(k) est le signal dans le domaine temporel. 

Le temie lX(n)l est appele spectre d'amplitude, il exprime la repartition 
25 fi-equentielle de ramplitude du signal x(k). 

Le terme arg[X(n)] est appele spectre de phase, il exprime la repartition 
fi-equentielle de la phase du signal x(k). 

Le terme |X(n)|= est appeie spectre d'energie, exprimant la repartition 
fi-equentielle de I'energic du signal x(k). 
30 Les valeurs largement utilisces sont les valeurs de spectre d'energie. 

En consequence, pour une serie de valeurs tcmporelles de ramplitude du signal 
x(k) d'un segment temporel T, il est obtenu une serie Xj des valeurs du spectre de 
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frequence dans une plage de frequences comprise entre una frequence minimale et 
une frequence maximale. La collection de ces valeurs ou parametres frequentiels est 
appelee « vecteur de TFD » ou vecteur spectral. Chaque vecteur Xi correspond au 
vecteur spectral pour chaque segment temporel T, avec i allant de 1 a n. 
5 Selon une caracteristique pr^fiSree de realisation, une operation de 

transfomiation ou de filtrage est effectuee sur les parametres frequentiels 
prealablement obtenus par Tintermediaire de moyens de transformation 25 interposes 
entre les moyens d'extraction 20 et les moyens de regroupement 30* Tel que cela 
apparait plus precisement sur la Fig* 2, cette operation de transformation permet a 

10 partir du vecteur spectral Xj, de generer un vecteur de caracteristiques transformees 
Yi. La transformation est donnee par la formule yi avec les variables, limitel^, limite2 
et aj qui d6finissent pr6cis6ment la transformation. 

La transformation peut 6tre du type identite de sorte que le vecteur de 
caracteristiques Xj ne change pas. Selon cette transformation, limitel et limij;e2 sont 

1 5 egaux a j et le parametre aj est 6gdl hl.Le vecteur spectral Xi est egal Yj. jv-" 

La transformation peut dtre une transformation moyenne de deux frequences 
adjacentes. Selon ce type de transformation, il peut dtre obtenu la moyenne-de deux 
spectres de frequences adjacentes. Par exemple, il peut etre choisi limitel esjt:egal a j 
et limite2 est egal a j+1 et aj est egal a 0,5. 

20 La transformation utilisee peut etre une transformation suivant une 

approximation de i'echelle de MeL Cette transformation peut Stre obtenue en faisant 
varier les variables limitel et limite2 sur les valeurs suivantes : 

0, 1, 2, 3, 4, 5, 6, 8, 9,10, 12, 15, 17, 20, 23, 27,31, 37, 40, avec 



a 



^ \lim itel - lim ite2\ 



25 Par exemple, en choisissant limitel et limite2 comme indique ci-dessous il peut etre 
obtenu un vecteur Y de dimension 20, a partir d'un vecteur brut X de dimension 40, 
en utilisant T equation decrite dans la Fig* 2, 

limitel=0 -> limite2=l 

limitel =1 -> limite2=2 

30 limitel=2 ^ limite2=3 




limitel=3 ->limite2=4 
limitel=4 limite2=5 
liinitel=5 ^ limite2=6 
liinitel=6 limite2=8 
5 liinitel=8 linnite2=9 

limitel=9 ^ limite2=10 
liinitel=10 ^ limite2=12 
limitel=12 ^ liinite2=15 
liinitel=15 -> liinite2=17 
10 Uinitel=17 ^ Iimite2=a0 

limitel=20 -> liinite2=23 
limitel=23 limite2=27 
liniite1=27 limite2=31 
limitel=31 liinite2=37 
15 liinitel=37 limite2=40 

Les transformations sur le vecteur spectral Xi sont plus ou moins importantes 
selon I'application, c'est-^-dire en fonction des classes sonores k classifier. Des 
exemples dc choix de cette transformation seront donnees dans la suite de la 
description. 

20 Tel que cela ressort de la description qui precede, le proced6 selon I'invention 

consiste a extraire de chaque fenStre temporelle F, des composantes caracteristiques 
permettant d'obtenir une description du signal sonore sur cette fenetre presentant une 
duree relativement large. Ainsi, pour les vecteurs Y| de chaque fen€tre temporelle F, 
les composantes caracteristiques calcultes peuvent 6tre la moyenne, la variance, le 

25 moment, le parametre du suivi des frequences ou le taux de passage par silence. 
L'cstimation de ces composantes caracteristiques est etTectu6e selon la formule 
suivante : 
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oh /i^est le vecteur moyen, le vecteijr de variance, x. 6tant le vecteur de 
caracteristiques qui n'est autre que le vecteur spectral filtre d6crit pr6cedemment 
pour constituer des fenetres temporelles F. 



1 A 



jj,., = — 2^Xij y = 1, • • • , iV^ ouy correspond a la bande de frequence dans le 

vectexir spectral x, / correspond au traips, ou Tinstant pour lequel le vecteur est 
extrait (segment temporel T), N est le nombre d'616ments dans le vecteur (ou le 
nombre de bande de frequence), M correspond au nombre de vecteur i 6tudier leurs 
statistiques (fendtre temporelle F), i dans correspond a Tinstant de la fenetre 
temporelle F pour laquelle ix^j est calculee,y correspond a labande de frequence. 



ou j correspond a la bande de frequence dans le vecteur spectral x et dans le ^recteur 
moyen /2 , / correspond au temps, ou Tinstant pour lequel le vecteur x est extrait 
(segment temporel T), iSTest le nombre d'el&nents dans le vecteur (ou le nombre de 
bande de frequence), M correspond au nombre de vecteur k etudier leurs statistiques 
(fengtre temporelle F), i dans fx^j et v^. correspond a I'instant de la fendtre temporelle F 
pour laquelle et v sent calculees,^ correspond a la bande de frequence. 
Le moment qui pent etre important pour la description du comportement des dorm^es 
est calcule de la maniere suivante : 



j^\'-^N , les indices i, j, N, /, Mi sont expliques 



pour la variance, et n >2. 




Le proced6 selon I'invention permet 6galement de determiner comma 
composantes caracteristiques, le paramefre SF pennettant de suivre les frequences. 
En effet, il a ete constate que pour la musique, il existait une certaine continuite de 
frequences, c*est-i-dire que les frequences les plus importantes dans le signal, 
5 c'est-a-dire celles qui concentrent le plus d'energie restent les mfimes pendant un 
certain temps, tandis que pour la parole ou pour le bruit (non harmonique) le 
changement des frequences les plus importantes se fait d'une manidre plus rapide. A 
partir de ce constat, il est propose de faire un suivi de plusiexars frequences en m6me 
temps selon un intervalle de precision par exemple 200 Hz. Ce choix est motive par 

10 le fait que les frequences les plus importantes dans une musique changent mais d'une 
maniere graduelle. L' extraction de ce parametre de suivi de frequences SF se fait de 
la maniere suivante. Pour chaque vecteur Yi de Transformee de Fourier Discrete, il 
est precede a P identification par exemple des cinq frequences les plus importantes* 
Si ?un^ de ces frequences ne figure plus da:ns les cinq frequences les plus 

15 importantes du vecteur de Transformee de Fourier Discrete, dans une bande de 
100 Hz, une coupure est signal6e. Le nombre de coupures dans chaque fendtre 
temporelle F est compt6, ce qui definit le parametre de suivi de frequences SF. Ce 
parametre SF pour les segments de musique est clairement inftrieur a celui de la 
parole ou du bruit, Aussi, un tel parametre est interessant pour une discrimination 

20 entre la musique et la parole. 

Selon ime autre caracteristique de I'invention, le precede consiste a definir 
comme composante caracteristique, le taux de passage par silence TPPS. Ce 
parametre consiste a compter dans une fenetre de taille fixee, par exemple de deux 
secondes, le nombre de fois ou Tenergie aixive au seuil de silence. En effet, il doit 

25 etre considere que Tenergie du signal sonore pendant I'elocution d'un mot est 
nomialement eleve alors qu'elle diminue sous le seuil de silence entre les mots. 
L'extraction du parametre est eifectue de la maniere suivante. Pour chaque 1 0 ms du 
signal, Tenergie du signal est calculee. La d6rivee de Tenergie est calculee par 
rapport au temps, soit Tenergie de T+1 moins I'energie a 1 'instant T. Puis dans une 

30 fenetre de 2 secondes. le nombre de fois ou la derivee de I'energie depasse un certain 
seuil est comptee. 



Tel que cela apparait plus precisement a la Fig- 3, les parametres extraits de 
chaque fenetre temporelle F definissent vm vecteur de caract6ristiques Z. Ce vecteur 
de caracteristiques Z est done la concatenation des composantes caracteristiques 
d6finies a savoir les vecteurs moyens, variances et moments, ainsi que le suivi des 

5 frequences SF et le taux de passage par silence TPPS- En fonction de Tapplication, 
une partie seulement ou la totality des composantes du vecteur de caracteristiques Z 
est utilis6e en vue d'une classification. Par exemple, si la plage de frequences dans 
laquelle est extrait le spectre est compris entre 0 et 4 000 Hz, avec un pas de 
frequences de 100 Hz, il est obtenu 40 elements par vecteur spectral. Si pour la 

10 transformation du vecteur de caracteristiques brut Xi il est applique Tidentite, alors 
sent obtenus 40 elements poin: le vecteur moyen, 40 pour le vecteur variance, et 40 
pour le vecteur moment. Apres concatenation et ajout des parametres TPPS et SF, il 
est obtenu un vecteur de caracteristiques Z de 122 elements. En fonction de 
Tapplication, il pent etre choisi d'utiliser la totalite ou seulement un sous-ensemble 

15 de ce vecteur caracteristiques en prenant par exemple 40 ou 80 elements. ^ 

Selon une variante preferee de realisation de Tinvention, le precede consiste a 
assurer une operation de normalisation des composantes caracteristiques a T^ide de 
moyens de normalisation 45 interposes entre les moyens d'extraction 40 et le 
classificateur 50. Cette normalisation consiste pour le vecteur moyen a cherf^her le 

20 composant qui presente la valeur maximale et h diviser les autres compos^nts du 
vecteur moyen par ce maximum, Une operation similaire est effectuee . pour le 
vecteur de variance et de moment. Pour le suivi de frequences SF et le taux de 
passage par silence TPPS, ces deux parametres sont divises par une constante fixee 
apres experimentation afin d'obtenir toujours une valeur comprise entre 0,5 et 1 . 

25 Apres cette etape de normalisation, il est obtenu un vecteur de caracteristiques 

dont chacune des composantes a une valeur comprise entre 0 et L Si le vecteur 
spectral a deja subi une transformation, cette etape de normalisation du vecteur de 
caracteristiques peut ne pas etre necessaire. 

Tel que cela ressort plus precisement de la Fig. 4, le procede selon Tinvention 

30 consiste aprds extraction des parametres ou constitution des vecteurs de 
caracteristiques Z, a choisir un classificateur 50 pennettant a Taide des moyens 




d'identification on de classification 60. d'etiqueter efficacement chacun de ces 
vecteurs comme etant une des classes acoustiques definies. 

Selon un premier exemple de realisation, le classificateur utilise est un reseau 
de neurones, tel que le perceptron multi-couches a deux couches cachees. La Fig. 5 
5 illustre Tarchitecture d'un r6seau de neurones comportant par exemple 82 elements 
en entree, 39 elements pour les couches cachees et 7 elements en sortie. Bien 
entendu, il est clair que le nombre de ces elements peut 6tre modifi6. Les elements de 
la couche d'entr6e correspondent aux composantes du vecteur de caract6ristiques Z. 
Par exemple, s'il est choisi pour la couche d' entree 80 ncBuds, il peut etre utilise une 

10 partie du vecteur de caract6ristiques Z par exemple les composantes correspondant a 
la moyenne et au moment. Pour la ou les couche(s) cachee(s), les 39 elements utilises 
apparaissent suffisantS:, Taugmentation du nombre de neurones n'apporte pas une 
amelioration notable des performances. Le nombre des elements pour la couche de 
sortie correspond au nombre de classes a classifier. Si deux classes sonoresr sont 

1 5 classifiees, par exemple musique et parole, la couche de sortie comporte deux noeuds, 
Bien entendu, il peut 6tre utilis6 un autre type de classificateur tel que le 
classificateur classique K-Plus Proche Voisin (KPPV). Dans ce cas, les 
connaissances de I'apprentissage sont constitu6s simplement de donnees 
d'apprentissage. La memorisation de Tapprentissage consiste done k stocker toutes 

20 les donnees d'apprentissage. Lorsqu'un vecteur de caract6ristiques Z se presente 
pour la classification, il convient de calculer les distances a toutes les donnees de 
I'apprentissage afin de choisir les classes les plus proches. 

L'utilisation d'un classificateur permet d'identifier des classes sonorcs telles 
que parole ou musique, voix d'homme ou voix de femme, moment caracteristique ou 

25 moment non caracteristique d'un signal sonore, ou moment caracteristique ou 
moment non caracteristique accompagnant un signal video au sens general 
representant par exemple tm film ou un match. 

La description qui suit donne un exemple d'application du procede selon 
I'invention pour la classification d'une bande sonorc en musique ou parole. Selon cet 

30 exemple, une bande sonore en entree est decouple en une succession d'intervalles de 
parole, de musique, de silence ou d'autres choses. Dans la mesure ou la 
caracterisalion d'un segment de silence est facile, les experimentations se sont 




port6es sur une segmentation en parole ou en musique. Pour cette application, il a et6 
utilise un sous-ensenable du vecteur de caracteristiques Z contenant 82 elements, 80 
elements pour la moyenne at la variance et un pour TPPS et un pour le SF. Le 
vecteur subit une transformation identite et une normalisation. La taille de chaque 

5 fenetre temporelle F est 6gale a 2s. 

Afin de montrer la quality des caract6ristiques ci-dessus et extraites d*un 
segment sonore, il a ete utilise deux classificateurs, Pun bas6 sur un r6seau de 
neurone RN, I'autre utilisant le principe simple de A:-PPV, c'est k dire « k-Plus 
Proche Voisin ». Dans un but de tester la gen6ralit6 du proced6, il a et6 realise 

10 I'apprentissage du RN et de /c-PPV sur 80s de musique et 80s de parole extraites de 
la chaine Aljazeerah "http://www,aljazeera.net/"en langue arabe. Ensuite, les deux 
classificateurs ont ete experimentes sur un corpus de musique ainsi qu^im corpus de 
paroles, deux corpus de nature tres variee totalisant 1280s (plus de 21 minutes). Le 
resultat sur la classification des segments de musique est donne dans le tableau 

15 suivant. 



Musique extraites de 


Longueur 


k-PPV 


k-PPV % 


RN 


RN' % 




de 




r6ussite 




rSussite 




segment 










Apprentissage 


80s 


80s 


100 


80s 


100 


Fairuz (Habbaytak bissayf) 


80s 


74s 


92.5 


72s 


90; 


Fairuz (Habbaytak bissayf) 


80s 


80s 


100 


80s 


100 


FaiiTJZ (eddach kan fi nass) 


80s 


70s 


87.5 


70s 


87.5 


George Michael (careless 


80s 


70s 


87.5 


80s 


100 


whisper) 












George Michael (careless 


80s 


76s 


95 


80s 


100 


whisper) 












Metallica (turn the page) 


80s 


74s 


92.5 


78s 


97.5 


Film "Gladiateur" 


80s 


78s 


97,5 


80s 


100 


Total 


640s 


602s 


94 


626s 


97.8 



Tableau 1 taux de reussite pour la classification de musique en utilisant un RN 



et un it-PPV 




On pent y voir que le classificateur k-PPV donne globalement un taux de 
reusvsite plus de 94% alors que le classificateur RN culmine avec un taux de reussite 
de 97,8%, On peut y noter aussi la bonne capacite de generalisation du classificateur 
RN. En effet, alors que Tapprentissage a ete r6alise sur 80s d'une musique libanaise, 
5 il realise une classification 100% r6ussie sur un genre de musique tout autre de 
Georges Michael et m6me un taux de classification r6ussie de 97,5% avec Metallica 
qui est une musique de Rock reputte difficile. 

Quant a 1' experimentation sur les segments de parole, elle a 6te men6e sur des 
extraits varies venant des emissions CNN en anglais, de LCI en fran9ais et du film 
10 « Gladiateur » alors que Papprentissage des deux classificateurs a 6te realise sur 80s 
de parole en arabe. Le tableau suivant donne les resultats des deux classificatexirs. 



Paroles extraites de 


Longueur 


k-PPV 


k-PPV 


% RN 


RN % 




de segment 




r6ussite 




reussite 


Apprentissage 


80s 


80s 


100 


80s 


100 


CNN 


80s 


80s 


100 


74s 


92,5 


CNN 


80s 


72s 


90 


78s 


97.5 


CNN 


80s 


72s 


90 


76s 


95 


LCI 


80s 


58s 


72.5 


80s 


100 


LCI 


80s 


66s 


82.5 


80s 


100 


LCI 


80s 


58s 


72.5 


80s 


100 


Film "Gladiateur" 


80s 


72s 


90 


72s 


90 


Total 


640s 


558s 


87.2 


620s 


96.9 



Tableau 2 taux de reussite pour la classincation de parole en utflisant un RN et 
un Jt-PPV 



15 On peut voir sur le tableau que le classificateur s'avere particulierement 

performant avec des extraits de LCI en fi-anfais car il realise une classification 100?/o 
correcte. Pour les extraits de CNN en anglais, il realise tout de m6me un taux de 
bonne classification au dessus de 92,5% et globalement le classificateur RN atteint 
un taux de classification reussie de 97% alors que le classificateur k-PPV donne un 

20 taux de bonne classification de 87%. 




Selon une autre experience, ces r^sultats encourageaiiits poxir le classificateur 
RN a ete choisi et appliqu6 k des segments melangeant la parole et la musique. Poxir 
cela, il a et6 r6alis6 un apprentissage de musique sur 40 secondes du programme « la 
guerre du Liban» issu de la chaihe «AIjazeerah» puis 80 secondes de parole en 
5 arabe extraites du mSme programme, Le classificateur RN a et6 teste sur 30 minutes 
du film "chapeau melon et bottes de cuir " qui a et6 segments et classifi6. Les 
resultats de cette experimentation sont doim6s dans le tableau suivant. 



Erreur Musique 


Erreur Parole 


Longueur segment 


Erreur totale 


Accuracy % 


68s 


141s 


1800s 


209s 


88.4 



Tableau 3 resultat de la segmentation-classification du film 



Dans un but de comparer le classificateur selon I'invention avec les travaux de 
10 I'etat de Tart, il a et6 aussi^ teste I'outil de "Muscle Fish" 
(http://vvww.musclefish.com/speechMusic.zip^ utilise par Virage sur le meme 
corpus et les resultats suivants ont ete obtenus : 



Erreur Musique 


Erreur Parole 


Longueur segment 


Erreur totale 


Accuracy % . 


336s 


36s 


1800s 


.372$ 


79.3 



Tableau 4 r^ultat de Toutil de Muscle Fish pour la segmentation-classification 
du film 



15 H peut etre constate clairement que le classificateur RN depasse de 1 0 points en 

terme de precision I'outil Muscle Fish, 

Enfin, il a 6t6 aussi teste le classificateur RN sur 10 minutes de programmes de 
"LCI", compos6s de "I'^dito", de "I'invite" et de "la vie des madias" et les resultats 
suivants ont 6t6 obtenus : 

Erreur Musique Eireur Parole Longueur segment Erreur totale Accuracy % 
128 2s 600s 148 97?7 

20 Tableau 5 resultat de segmentation-classification des programmes LCI 

Alors que Toutil de "Muscle Fish" a donn6 les r6sultats suivants: 

Erreur Musique Erreur Parole Longueur segment En*eur totale Accuracy % 




Tableau 6 resulcat de segmentation-classification des programmes LCI avec 
routil de Muscle Fish 

Les r6sultats r6capitulatifs par le classificateur RN sent les suivants : 



Donnee d'apprentissage 


Donnee de Test 


Erreur totale 


Apprentissage 
test % 


/ Accuracy % 


120s 


3000s 


-23^fs 


-4 


93t4 













Tableau 7 r^sultat de segmentation-classification sur les differentes videos 



5 On y voit que pour un taux de precision de plus de 92% sur 50 minutes dans 

cette experimentation, le classificateur RN genere seulement un taux A/T (duree 
apprentissage/duree test) de 4 %, ce qui est tres encourageant par rapport aux taux 
A/T de 300 % pour le systeme de [Will 99] (Gethin Williams, Daniel Ellis, 
Speech/music discrimination based on posterior probability features^ Eurospeech 

10 1999) base sur les jparametfes de probabilite a posteriori de HMM (Hidden Markov 
Model) et en utilisant les GMM. 

Un deuxi^e exemple d' experimentation a ete realise afin de classifier un 
signal sonore en voix d'homme ou en voix de femme. Selon cette experience, les 
segments de parole sont d6coup6s en des morceaux 6tiquet6s voix masculine ou voix 

15 feminine. A cet effet, le vecteur de caracteristiques ne comporte pas le taux de 
passage par silence et le suivi de firequences. Le poids de ces deux parametres est 
done ramene a 0. La taille de la fenetre temporelle F a ete fixee a 1 seconde. 

Les experimentations ont ete realisees sur des donnees des appels 
telephoniques de la base Switchboard de « Linguistic Data Consortium » LCD 

20 (http://www.ldc,upenn,edu) , II a ete choisi pour T apprentissage et pour le test des 
appels telephoniques entre des locuteurs de meme genre, c'est a dire conversations 
homme-homme et ferame-femme. L'apprentissage a ete fait sur 300s de parole 
extraites de 4 appels telephoniques homme-homme et 300s de parole extraites de 4 
appels telephonique femme-femrae. Le procede selon Tinvention a cte test6 sur 

25 6000s (lOOmin) dont 3000s extraits de 10 appels homme-homme qui sont differents 
des appels utilises pour Tapprentissage, et 3000s extraits de 10 appels femme- 
femme, diffcrenLs egalement des appels utilises pour T apprentissage. Le tableau ci- 
dessous resume les resultats oblenus. 




Tableau 6 r^sultat de segmentation-classification des programmes LCI 
Toutil de Muscle Fish 



Les r6sultats r6capitulatifs par le classificateur RN sont les suivants : 



Doim6e 


Donnee de 


Erreur 


Apprentissage / 


Accuracy 


d'apprentissage 


Test 


totale 


test % 


% 


120s 


3000s 


227s 


4 


92.4 



Tableau 7 resultat de segmentation-classification snr les differentes videos 



On y voit que pour un taux de precision de plus de 92% sur 50 minutes dans 
cette experimentation, le classificateur RN genere seulement xin taux A/T (duree 
apprentissage/duree test) de 4 %, ce qui est tres encourageant par rapport aux taux 
A/T de 300 % potir le systeme de [Will 99] (Gethin Williams, Daniel Ellis, 
Speech/music discrimination based on posterior probability feaUires, Eurospeech 
1999) base sur les parametres de probabilite a posteriori de HMM (Hidden Markov 
Model) et en utilisant les GMM. 

Un deuxieme exemple d'exp6rimentation a 6t6 r6alis6 afin de classifier un 
signal sonore en voix d'homme ou en voix de fetnnnLe, Selon cette exp6rience, les 
segments de parole sont d6coupes en des morceaux etiquetes voix masculine ou voix 
f6minine. A cet effet, le vecteur de caract6ristiques ne comporte pas^-le taux de 
passage par silence et le suivi de frequences. Le poids de ces deux pacgm^tres est 
done ramene k 0. La taille de la fenetre temporelle F a 6t6 fixee a I seconde. 

Les exp6rimentations out et6 r6alis6es sur des donn6es des appels 
telephoniques de la base Switchboard de « Linguistic Data Consortium » LCD 
f http ://www,ldc> upenn .edu ) . 11 a ete choisi pour T apprentissage et pour le test des 
appels telephoniques entre des locuteurs de meme genre, c'est a dire conversations 
homme-homme et fexnme-femnie. L'apprentissage a et6 fait sur 300s de parole 
extraites de 4 appels telephoniques homme-homme et 300s de parole extraites de 4 
appels telephonique feiTinie-femme. Le precede selon I'invention a ete teste sur 
6000s (lOOmin) dont 3000s extraits de 10 appels homme-homme qui sont differents 
des appels utilises pour Tapprentissage, et 3000s extraits de 10 appels femme- 
femme, differents cgaleraent des appels utilises pour Tapprentissage. Le tableau ci- 
dessous resume les resultats obtenus. 
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Taux de Taux de Longueur Longueur Duree de Precision % 

detection detection femme segment homme segment femnie parole pour 
homnie TApprentiss 

age/Duree 
totale de test 

"85% 90% 3000s 3000s 10% 873% 



On voit que le taux de detection global est de 87,5% avec un echantillon de 
parole pour Tapprentissage qui n'est que de 10% des paroles testees. On constate 
aussi que le proc6de selon Pinvention realise une meilleure detection de pai*ole 
5 f6minine (90%) que masculine (85%). Ces resultats peuvent etre encore sensiblement 
ameliores si Ton applique le principe de vote majoritaire a des segments homogdnes 
a la suite de la segmentation aveugle et si Ton elimine les longs silences qui 
apiparaissent assez soiivent dans les conversations t^lephbniques et qui conduisent a 
un etiquetage de femme par la technique selon Tinvention. 

1 0 Une autre experience vise a classifier un signal sonore en moment important on 

non dans un match sportif La detection de moments cles dans un match sportif par 
exemple celui de football dans un contexte de retransmission atidiovisuel en direct 
est tres importante pour permettre une generation automatique de resumes 
audiovisuels qui peuvent etre une compilation des images, des moments cles ainsi 

15 detectes. Dans le contexte d'un match de football, un moment cle est celui ou 
intervient une action de but, une penalite, etc. Dans le contexte d'un match de basket- 
ball, un moment cle peut etre defini par celui ou intervient une action mettant la balle 
dans le panier. Dans le contexte d'un match de rugby, un moment cle peut etre defini 
par celui ou intervient Taction d'essai par exemple. Cette notion de moment cl6 peut 

20 bien entendu 6tre applique a tons matchs sportifs. 

La detection de moments cles dans une sequence audiovisuelle sportive revient 
a un probleme de la classification de la bande sonore, du terrain, de Tassistance ct 
des commentateurs accompagnant le deroulement du match. En effet, lors des 
moments importants dans un match sportif, comme par exemple celui du football, ils 

25 se traduisent en une tension dans Ic ton de parole du commentateur et 
rintensification du bruit des spectateurs. Devant cette experimentation, le vecteur de 
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Taux de 


Taux de 


Longueur 


Longueur 


Dur6e de parole 


Pr6cision 


d6tection 


d6tection 


segment 


segment 


pour 


% 


hotnrae 


femme 


homme 


femme 


r Apprentissage / 
Dur6e totalc de 
test 




85% 


90% 


3000s 


3000s 


10% 


87.5% 



On voit que le taiix de d6tection global est de 87,5% avec un echantillon de 
parole pour Tapprentissage qui n'est que de 10% des paroles testees. On constate 
aussi que le procede selon I'invention realise ime meilleure detection de parole 
5 feminine (90%) que masculine (85%). Ces r^sultats peuvent etre encore sensiblement 
am^liores si Ton applique le principe de vote majoritaire k des segments homogenes 
a la suite de la segmentation aveugle et si Ton elimine les longs silences qui 
apparaissent assez souvent dans les conversations telephoniques et qui conduisent i 
un 6tiquetage de femme par la technique selon Tinvention. 

10 Une autre iBXp6rierice vise k classijRer un signal sdnore en moment important ou 

non dans un match sportif. La detectidn de moinents cles dans un match sportif par 
exemple celui de football dans un contexte de retransmission audiovisuel^en direct 
est tres impoitante pour permettre une g6n6ration automatique de i, r6sum6s 
audiovisuels qui peuvent Stre une compilation des images, des moments cles ainsi 

15 detectes. Dans le contexte d*un match de football, un moment cl6 est celui ou 
intervient une action de but, une penalite, etc. Dans le contexte d'un match de basket- 
ball, un moment cle pent etre defini par celui ou intervient une action mettant la balle 
dans le panier. Dans le contexte d'un match de rugby, un moment cle pent etre defini 
par celui ou intervient Taction d'essai par exemple. Cette notion de moment cl6 pent 

20 bien entendu etre appliqu6 a to us matchs sportifs. 

La detection de moments cles dans une sequence audiovisuelle sportive revient 
un probleme de la classification de la bande sonore, du terrain, de Tassistance et 
des commentateurs accompaguant le deroulement du match. En cffet, lors des 
moments importants dans im match sportif, comme par exemple celui du football, ils 

25 se traduisent en une tension dans le ton de parole du commentateur et 
rintensifi cation du bruit des spectateurs. Devant cette experimentation, le vecteur de 




caracteristiques utilise est celui utilise pour la classification musique/parole en 
enlevant uniquenment les deux paramdtres TPPS et de SF. La transfomiation utilisee 
sur les vecteurs de caracteristiques bruts est celle suivant r^chelle de Mel, tandis que 
Tetape de la nomnalisation n*est pas appliquee au vecteur de caracteristiques. La 
5 taille de la fen€tre temporelle F est de 2 secondes. 

II a ete choisi trois matchs de football de la coupe de TUEFA pour les 
experimentations. Pour Tapprentissage, il a ete segmente nianuellement 20s des 
moments cles, et 20s des moments non cles du premier match. On a done deux 
classes sonores : moment cle ou moment non cle. 



Apres Tapprentissage, il a ete men6 la classification sur les trois matchs. Les 
resultats sont evalues en terme du nombre de buts detect6s, et en teraie du temps 
classifie comme important. 





Nombre de buts 


Temps 
iicnpbrtanf 
d6tect6 (s) 


Buts detect6s 


Precision % 


Match 1 


3 


90 


3 


100 


Match 2 


0 


40 


0 


NA 


Match 3 


4 


80 


4 


100 



On peut voir qu'a travers le tableau, tous les moments de but ont ete detectes. 
15 En plus, pour un match de football de 90 minutes, on genere un resume de 90 
secondes au plus comprenant tous les moments de but. 

Bien entendu, la classification en moments importants ou non peut etre 
generalisee a la classification sonore de tous documents audiovisuels, tels qu'un film 
d'action ou un film pomographique. 
20 Le precede selon Tinvention permet 6galement par tous moyens appropries, 

d'affecter une etiquette poiir chaque fenStre temporelle affectee a une classe et de 
rechercher les Etiquettes pour un lei signal sonore par exemplc enregistre dans une 
base de donnees. 

L'invention n'e^t pas limitee aux exemples decrits et representes car diverses 
25 modifications peuvent y etre apportees sans sortir de son cadre. 



IKS I I # 
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caracteristiques utilise est celui utilis6 povtr la classification musique/parole en 
enlevant uniquement les deux parametres TPPS et de SF. La transformation utilis^e 
BUT les vecteurs de caract6ristiques bruts est celle suivant Techelle de Mel, tandis que 
Tetape de la normalisation n'est pas appliqu6e au vecteur de caracteristiques. La 

5 taille de la fenStre temporelle F est de 2 secondes. 

II a ete choisi trois matchs de football de la coupe de I'UEFA pour les 
experimentations. Pour Tapprentissage, il a 6t6 segment6 manuellement 20s des 
moments cl6s, et 20s des moments non cles du premier match. On a done deux 
classes sonores : moment cl6 ou moment non cle. 

10 Aprds rapprentissage, il a et6 mene la classification sur les trois matclis. Les 

resultats sont lvalues en terme du nombre de buts detectes, et en terme du temps 
classifi6 corame important. 





Nombre 
de buts 


Temps 
important 
d6tecte (s) 


Buts 
d6tect6s 


Pr6cision 
% 


Match 1 


3 


90 


3 


100 


Match 2 


0 


40 


0 


NA 


Match 3 


4 


80 


4 


.100 



On peut voir qu'a travers le tableau, tous les moments de but ont ete dfetectes. 
15 En plus, pour un match de football de 90 minutes, on g6nere un resume de 90 

secondes au plus comprenant tous les moments de but. 

Bien entendu, la classification en moments importants ou non peut etre 

generalisee a la classification sonore de tous documents audiovisuels, tels qu'un film 

d'action ou un liim pomographique. 
20 Le procede selon Tinvention permet egalement par tous moyens appropries, 

d'affecter une etiquette pour chaque fenetre temporelle affectee k une classe et de 

rechercher les etiquettes pour un tel signal sonore par exemple enregistre dans une 

base de donn6es. 

L*invention n'est pas limit6e aux exemples d6crits et repr6sentes car diverses 
25 inodifications peuvent y etre apportees sans sortir de son cadre. 




REVENDICATIONS 

1 - Proc^de pour affecter au moins une classe sonore a un signal sonore, 
caract6ris6 en ce qu'il comprend les etapes suivantes : 

^ diviser le signal sonore en des segments temporels (T) presentant une 
5 duree d6terminee, 

^ extraire les paramdtres fr^quentiels du signal sonore dans chacun des 

segments temporels (T), 
= regrouper les parametres frdquentiels dans des fenetres temporelles (F) 
presentant une duree detemiinee superieure a la duree des segments 
10 temporels (T), 

s extraire de chaque fenetre temporelle (F), des composantes 
caracteristiques, 

» et en consideration des composantes caract^ristiques extraites et k Taide 
classificateta:, identifiCT la classe sonore des fenetres temporelles (F) 
15 du signal sonore. 

2 - Proc6d6 selon la revendication 1^ caract6ris6 en ce qu'il consiste a diviser le 
signal sonore en des segments temporels (T) dont la duree est comprise entre 10 et 
30 ms. 

3 - Precede selon la revendication 1, caracterise en ce qu'il consiste a extraire les 
20 parametres fr6quentiels du signal sonore en determinant une serie des valeurs du 

spectre de frequence dans une plage de frequences comprise entre une frequence 
minimale et une frequence maximale. 

4 - Precede selon la revendication 3, caracterise en ce qu'il consiste k extraire les 
parametres frequentiels en utilisant la Transformee de Fourier Discrete. 

25 5 - Precede selon la revendication 3 eu 4, caracteris6 en ce qu'il consiste a assurer 

une operation de transfomiation ou de filtrage des parametres frequentiels. 

6 - Precede selon la revendication 5, caract6ris6 en ce qu'il consiste a realiser une 
transformation de type identite, moyenne de deux frequences adjacentes, ou selon 
Techelle de Mel. 

30 7 - Precede selon Tune des revendications 3 a 5, caracterise en ce qui] consiste a 
regrouper les paramdtres frequentiels dans des fenetres temporelles de duree 
superieure a 0,3 seconde et de preference comprise entre 0,5 et 2 secondes. 




8 - Proced6 selon la revendication 1, caiacteris6 en ce qu*il consiste k extraire de 
chaque fenetxe temporelle, des composantes caract6ristiques telles que la moyenne, 
la variance, le moment, le param6tre du suivi des frequences ou le taxix de passage 
par silence. 

5 9 - Proc6d6 selon la revendication 8, caract6ris6 en ce qu'il consiste k utiliser une 
ou plusieurs composantes caracteristiques en entr6e du classificateur. 

10 " Procede selon la revendication 8 ou 9, caracterise en ce qu'il consiste a 
assurer une op6ration de normalisation des composantes caracteristiques. 

11 - Proc6de selon les revendications 8 et 10, caracterise en ce que Poperation de 
10 nomialisation consiste : 

a pour la moyenne, la variance ou le moment, chercher le composant 
pr6sentant la valeur maximale et a diviser les autres composants par cette 
valeur maximale, 

° pour le suivi des frequences ou le taxix de passage par silence, k diviser 
15 chacune de ces composantes caracteristiques par une constante fixee apres 

experimentation pour obtenir \me valeur comprise entre 0,5 et 1 . 

12 - Precede selon la revendication 1 ou 9, caracterise en ce qu'il cpnsiste a 
utiliser conmae classificaiteur, un reseau de neurones ou le K-Plus Proche Voisin. 

13 - Procede selon la revendication 12, caracterise en ce qu'il consiste 4 realiser 
20 une phase d' apprentissage d'un signal sonore pour le classificateur. 

14 - Procede selon les revendications 1 a 13, caracterise en ce qu'il consiste k 
Paide d'un classificateur, a identifier des classes sonores telles que parole ou 
musique, voix d'homme ou voix de femme, moment caracteristique ou moment non 
caracteristique d'vin signal sonore, moment caracteristique ou moment non 

25 caracteristique accompagnant un signal video representant, par exemple, im film ou 
un match. 

15 - Precede selon la revendication 14, caracterise en ce qu'il consiste a classifier 
le signal sonore en musique ou en parole en utilisant les parametres de moyerme, de 
variance, de suivi de frequences, et le taux de passage par silence, suivi par une 

30 normalisation des pararndtres tandis que la fenetre temporelle est egale ^ 2 s. 

16 - Precede selon la revendication 14, caracterise en ce qu'il consiste k classifier 
le signal d'un match en moment important ou moment non important en utilisant les 




parameti-es de moyenne et de variance, avec une transfoiTnation selon Techelle de 
Mel sans appliquer une normalisation des composantes caracteristiques. 

17 - Proced6 selon la revendication 14, caracterise en ce qu'il consiste a identifier 
des moments forts dans un signal sonore d'un match. 
5 18 - Proc6d6 selon la revendication 17, caracterise en ce qu'il consiste k utiliser 
Tidentification des moments forts pour cr6er un resume de match. 

19 - Proced6 selon la revendication 14, caracterise en ce qu'il consiste a identifier 
et suivre la parole dans un signal sonore. 

20 - Precede selon la revendication 19, caracterise en ce qu'il consiste a identifier 
10 et suivre la parole d'un homme et/ou d'une femme pour la partie parole du signal 

sonore. 

21 - Procede selon la revendication 14, caracterise en ce qu'il consiste a identifier 
et suivre la musique dans un signal sonore. 

22 -Proc6de selon la revendication 14, caracterise en ce qu'il consiste k' 
1 5 determiner si le signal sonore contient de la parole ou de la musique. 

23 - Procede selon la revendication 14, caracterise en ce qu'il consiste k afPecter 
une etiquette pour chaque fenetre temporelle affectee k ime classe. 

24 -Procede selon la revendication 23, caracterise en ce quMl consiste a 
rechercher les etiquettes pourun signal sonore. 
20 25 - Appareil pour affecter au moins une classe sonore a un signal sonore, 
caracterise en ce qu'il comprend : 

« des moyens (10) pour diviser le signal sonore (S) en des segments 

temporels (T) presentant une duree determinee, 
=^ des moyens (20) pour extraire les pararaetres fi-equentiels du signal sonore 
25 dans chacun des segments temporels (T), 

^ des moyens (30) pour regrouper les parametres firequentiels dans des 
fenetres temporelles (F) presentant une duree determinee superieure a la 
duree des segments temporels* 
^ des moyens (40) pour extraire de chaque fenStre temporelle (F), des 
30 composantes caracteristiques. 




° et des moyens (60) pour identifier la classe sonore des fenetres 
temporelles (F) du signal sonore en consideration des cpmposantes 
caract6ristiques extraites et k Taide d'un classificateur. 

26 - Appareil selon la revendication 25, caracteris6 en ce que les moyens (20) 
5 pour extraire les parametres frequentiels utilisent la Transformee de Fourier Discrete. 

27 - Appareil selon la revendication 25 ou 26, caracteris6 en ce quUl comprend 
des moyens (25) pour assurer une operation de transformation ou de filtrage des 
paramdtres frequentiels, 

28 -Appareil selon Tune des revendications 24 k 27, caract6rise en ce qu'il 
10 comporte des moyens (30) pour regrouper les parametres frequentiels dans des 
fenetres temporelles (F) de diir6e sup6rieure a 0,3 seconde et de preference comprise 
entre 0,5 et 2 secondes. 

29 - Appareil selon la revendication 2, caracterise en ce qu'il comporte en tant 
que moyens (40) pour extraire de chaque fenetre temporelle, des composantes 
15 caract6ristiques, des moyens pour extraire la moyenne, la variance, le moment, le 
parametre du suivi des frequences ou le taux de passage par silence. .;• 

30 -Appareil selon la revendication 29, caract6ris6 en ce qu'il compprte des 
moyens (45) de normalisation des composantes caract6ristiques. 

31 - Appareil selon la revendication 24, caract6ris6 en ce qu'il comporte: comme 
20 classificateur, un r6seau de neurones ou le K-Plus Proche Voisin. 

32 -Appareil selon la revendication 1, caract6ris6 en ce qu'il comprend des 
moyens (60) pour identifier des classes sonores telles que parole ou musique, voix 
d'homme ou voix de femme, moment caracteristique ou moment non caracteristique 
d*un signal sonore, moment caracteristique ou moment non caracteristique 
25 accompagnant un signal video representant, par exemple, un film ou un match. 

33 - Appareil selon la revendication 24, caracterise en ce qu'il comporte des 
moyens pour affecter une etiquette pour chaque fenetre temporelle affectee a une 
classe. 

34 - Appareil selon la revendication 33, caracterise en ce qu'il comprend des 
30 moyens pour rechercher les Etiquettes pour un signal sonore enregistre dans une base 

de donnees. 
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